doi: 10.17586/2226-1494-2024-24-6-982-990


УДК 004.89

Анализ настроений арабских твитов с использованием контролируемого машинного обучения 

Бенабдаллах А., Абдеррахим М., Мокри М.


Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:
Бенабдаллах А., Абдеррахим М.А., Мокри М. Анализ настроений арабских твитов с использованием контролируемого машинного обучения // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 982–990 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-6-982-990


Аннотация
Растущий объем пользовательского контента на платформах социальных сетей требует эффективных инструментов для понимания общественных настроений. В работе представлен подход к анализу настроений арабских твитов с использованием контролируемых методов машинного обучения. Исследована производительность трех популярных алгоритмов — опорных векторных машин (Support Vector Machines, SVM), наивного байесовского алгоритма (Naive Bayes, NB) и логистической регрессии (Logistic Regression, LR) — на двух отдельных корпусах: арабском корпусе текстов настроений (Arabic Sentiment Text Corpus, ASTC) и корпусе арабских твитов. Подход содержал четыре теста, оценивающих влияние характеристик корпуса: метода предварительной обработки, метода взвешивания и использования N-грамм на точность классификации. Первый тест позволил установить, что выбор корпуса значительно влияет на производительность модели, при этом SVM показал высокую точность на структурированном ASTC, в то время как NB лучше работает с неформальными арабскими твитами. Во втором тесте предварительная обработка, включая удаление знаков препинания и стоп-слов, привела к заметному улучшению точности классификации для арабских твитов, но оказала минимальное или даже отрицательное влияние на ASTC. Третий тест показал, что включение N-грамм дало незначительное улучшения для NB и LR в более структурированных текстах, в то время как его влияние на твиты было незначительным. Четвертый тест позволил сравнить различные методы взвешивания, показав, что SVM выиграл по сравнению с методом взвешивания TF-IDF, в то время как производительность NB оставалась стабильной независимо от подхода к взвешиванию. Полученные результаты подчеркивают важность адаптации стратегий предварительной обработки и извлечения признаков к конкретным характеристикам набора данных, что в итоге повышает точность анализа настроений в контекстах арабского языка. 

Ключевые слова: анализ настроений на арабском языке (ASA), машинное обучение, классификатор, полярность, Twitter

Список литературы
  1. Mataoui M., Zelmati O., Boumechache M. A Proposed lexicon-based sentiment analysis approach for the vernacular Algerian Arabic // Research in Computing Science. 2016. V. 110. P. 55–70. https://doi.org/10.13053/rcs-110-1-5
  2. Al-Kabi M., Gigieh A., Alsmadi I., Wahsheh H., Haidar M. An opinion analysis tool for colloquial and standard Arabic // Proc. of the fourth International Conference on Information and Communication Systems (ICICS 2013). 2013.
  3. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. 2008. V. 2(1-2). P. 1–135. https://doi.org/10.1561/1500000011
  4. Taboada M., Brooke J., Tofiloski M., Voll K., Stede M. Lexicon-based methods for sentiment analysis // Computational Linguistics. 2011. V. 37. N 2. P. 267–307. https://doi.org/10.1162/coli_a_00049
  5. Ding X., Liu B., Yu P.S. A holistic lexicon-based approach to opinion mining // WSDM '08: Proc. of the 2008 International Conference on Web Search and Data Mining. 2008. P. 231–240. https://doi.org/10.1145/1341531.1341561
  6. Kumar A., Sebastian T.M. Sentiment analysis on twitter // IJCSI International Journal of Computer Science Issues. 2012. V. 9. N 3. P. 372–378.
  7. Klenner M., Petrakis S., Fahrni A. Robust compositional polarity classification // Proc. of the International Conference RANLP. 2009. P. 180–184.
  8. Pak A., Paroubek P. Twitter as a corpus for sentiment analysis and opinion mining // Proc. of the Seventh International Conference on Language Resources and Evaluation (LREC'10). 2010.
  9. Al-Kabi M., Al-Ayyoub M., Alsmadi I., Wahsheh H. A prototype for a standard Arabic sentiment analysis corpus // International Arab Journal of Information Technology. 2016. V. 13. N 1A. P. 163–170.
  10. Oueslati O., Cambria E., HajHmida M.B., Ounelli H. Review of sentiment analysis research in Arabic language // Future Generation Computer Systems. 2020. V. 112. P. 408–430. https://doi.org/10.1016/j.future.2020.05.034
  11. Ghallab A., Mohsen Y., Ali Y. Arabic sentiment analysis: A systematic literature review // Applied Computational Intelligence and Soft Computing. 2020. V. 2020. P. 403128. https://doi.org/10.1155/2020/7403128
  12. Duwairi R., Marji R., Sha'ban N., Rushaidat S. Sentiment Analysis in Arabic tweets // Proc. of the 2014 5th International Conference on Information and Communication Systems (ICICS). 2014. P. 1–6. https://doi.org/10.1109/iacs.2014.6841964
  13. Bolbol N.K., Maghari A.Y. Sentiment analysis of Arabic tweets using supervised machine learning // Proc. of the 2020 International Conference on Promising Electronic Technologies (ICPET). 2020. P. 89–93. https://doi.org/10.1109/ICPET51420.2020.00025
  14. Heikal M., Torki M., El-Makky N. Sentiment analysis of Arabic Tweets using deep learning // Procedia Computer Science. 2018. V. 142. P. 114–122. https://doi.org/10.1016/j.procs.2018.10.466
  15. Alhamid M., Alsahli S., Rawashdeh M., Alrashoud M. Detection and visualization of Arabic emotions on social emotion map // Proc. of the International Symposium on Multimedia (ISM). 2017. P. 378–381. https://doi.org/10.1109/ISM.2017.76
  16. Al-Thubaity A., Alqahtani Q., Aljandal A. Sentiment lexicon for sentiment analysis of Saudi dialect tweets // Procedia Computer Science. 2018. V. 142. P. 301–307. https://doi.org/10.1016/j.procs.2018.10.494
  17. Assiri A., Emam A., Al-Dossari H. Towards enhancement of a lexicon-based approach for Saudi dialect sentiment analysis // Journal of Information Science. 2018. V. 44. N 2. P. 184–202. https://doi.org/10.1177/0165551516688143
  18. Alqurashi T. Arabic sentiment analysis for twitter data: A systematic literature review // Engineering, Technology & Applied Science Research. 2023. V. 13. N 2. P. 10292–10300. https://doi.org/10.48084/etasr.5662
  19.  Liu B. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions / 2nd ed. Cambridge University Press, 2020. 448 p.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика